查看原文
其他

笃信语音交互将成为主流,讯飞向 80 万开发者展示了升级后的 AI 和 IoT 能力

shenzhenware 深圳湾 2022-12-08

向现场 2000 位开发者例行能力秀:老样子,讯飞各项工作做的都挺好。


- shenzhenware -


很长一段时间,讯飞的盈利问题都遭到业界的质疑。但昨晚,在讯飞开放平台的「AI·飞无界」新品发布会上,科大讯飞执行总裁胡郁给出了解释:


讯飞每年在开发者平台和核心技术上的投入是上亿级的,2017 年讯飞的技术投入占总营收比重高达 61.61%,技术开发团队的人数增长率则高达 56.04%,均大幅度高于 2016 年。


作为一家老牌技术企业,科大讯飞善于源头技术的系统创新,但是在产品和应用方面的创新,单靠讯飞自身的力量是做不到的。讯飞在开发者平台商不惜代价的投入巨大的财力物力人力,就是希望不断降低创新门槛,与开发者共同推动语音交互技术的应用创新。


^ 科大讯飞执行总裁胡郁


   老样子,首先回顾 AIUI 的发展历程以及取得的成绩,这些更新的数据了解一下


在还没有 Echo 和 Alexa 的 2010 年,讯飞发布了首个中文语音开发者平台。2015 年,讯飞发布了 AIUI,提出了人机交互的新场景和新理念。历经三年发展,平台注册开发者已经达到 80 万


科大讯飞消费者事业群执行总裁于继栋首先对 AIUI 平台商的开发者进行了分析,发现了一些有意思的现象:2017 年,伴随着 AI 的发展,平台开发者数量增长了 30 万;移动终端的开发者快速增长,而代表了办公场景的 Windows 开发者和代表了智能硬件的 Linux 开发者都获得了快速增长,此外还有微信小程序的 API 开发者和 Java 小程序开发者,这些都是 AI 落地的表现。


^ 现场展示的讯飞 AIUI 赋能的设备


过去一年,讯飞也努力的推动着技术走进人们的生活。从讯飞输入法的数据分析来看,语音输入作为一个应用,活跃度已经可以跃进手机 TOP 10 应用用户每天通过讯飞开放平台与设备的交互次数达到 45 亿次,其中智能音箱的日活达到 4000 万次,车机的语音交互活跃度超过 90%


而在 AI 硬件设备商的成绩,则包括讯飞 AI 翻译机 2.0、与中国移动联合发布的咪咕语音助手、与金山居合作推出游戏手办、阿尔法蛋系列儿童陪伴机器人、与美团合作推出的骑手智能耳机、与美的合作的无叶风扇、与京东合作的支持视觉交互叮咚 PLAY 智能音箱、与红星美凯龙合作的智能导购机器人、与快思聪合作的智能家居方案,等等。


^ 现场观众体验刚刚发布的叮咚 PLAY,讯飞联合京东出品


   加大对智能家居场景的渗透,升级后的魔飞 2.0,解决了多设备同时被唤醒的尴尬


魔飞(MORFEI)是一款成品级的硬件开发平台。在去年发布的双环八麦智能麦克风的基础上,讯飞发布了升级版的「魔飞 2.0」。超越了固定的硬件形态的局限,「软核化」升级后的魔飞可以安装在各类硬件设备中。同时,融合了 AIUI 的云函数能力,使开发者可以在云端直接编写业务逻辑,实现在一个小时之内完成业务场景的搭建,进一步压缩开发周期。


魔飞的产品经理涂康宏特别强调了魔飞 2.0 的两点创新:


拥有分布式能力。过去,当用户对多台设备进行唤醒时,命令执行会引发多台设备同时被唤醒的尴尬局面;现在,多台设备在同一个局域网、同一个账户号下,当用户喊出「魔飞魔飞」唤醒词时,所有在局域网内的设备进行唤醒分值计算,离用户最近的那一台设备会优先响应用户唤醒。


拥有能量跟随能力。过去,当设备被唤醒之后,麦克风阵列会根据声源的位置指定一个固定的波束方向,除非用户再次唤醒设备,否则波束方向不会改变;现在,波束可以根据用户的位置和声源地移动,动态的调整播出方向,从而给用户带来更自然的交互体验,也给开发者带来更多的想象空间。


此外,魔飞还开放了包括音频降噪接口、文本转写接口、合成播报接口在内的全链路接口,实现了声纹唤醒能力,开发者可以通过声纹接口获取到用户的身份信息,并给予用户个性化推荐。


^ 与魔飞联动的设备


   强调精品技能开发,升级后的 AIUI 3.0 完善了技能开发工具和平台能力


AIUI 3.0 集成了语音唤醒、语音识别、语义理解、语音合成、IoT 等核心技术,优化了技能平台,并整合了硬件、SDK、WebAPI、芯片、小程序等接入平台,构成了一张丰富的系统架构全景图。


讯飞也例行的公布了技能和内容平台的应用数量:120+ 技能和 60+ 内容,但更加强调了打造高活跃的精品技能的重要性。优质内容提供商「工程师爸爸」和「豆果美食」被特别的点名。


为了让开发者能够更加高效的开发出个性化的技能,讯飞的技能平台为开发者提供了自定义问答工具、自定义技能工具,以及云函数即云端编程的能力、和半监督优化能力。这个颇有创新性的「半监督优化能力」,通俗的来讲,就是通过系统分析人机交互日志,了解各种热门说法并推荐给开发者,并提供多种响应方式的建议,从而帮助开发者更加高效的捕获用户需求和优化技能体验。


AIUI 3.0 在不断的丰富着设备的接入方式,即便是不智能的嵌入式设备,只要具有 Wi-Fi 能力,就可以低成本快速的接入 AIUI 的语音能力。


现场,讯飞还举办了一场语音技能开发的挑战,有 4 位开发者仅用了很短的时间,就完成了一项技能的开发,并通过现场配置好的魔飞麦克风,进行了技能演示和验证。这里不一一举例。


^ 参与现场技能开发挑战的深圳的开发者


   发布智能物联云 AIoT,旨在实现 20 亿智能硬件的互联互通


2018 年,硬件终端规模已近 20 亿,其中,非手机类的智能终端比例,已经从 1% 提高到了 7.6%,智能硬件市场正在崛起过去 18 个月,讯飞已经接入了近 1.5 亿智能硬件终端设备,在安防、智能家居、智能办公、机器人、智能穿戴等领域的合作伙伴数量都在快速增长。


新发布的智能物联云 AIoT 不仅可以实现讯飞自家设备互联互通,还可以实现自家设备和其他设备的互联互通,并且还能兼容第三方物联网。


智能物联云 AIoT 有两大能力:提供开放、聚合、智能的云服务平台;支持设备在本地的雾计算(边缘计算)。这些能力被整合到 PaaS 级的开发平台里,为开发者提供 AI 接口和开放设备连接,让开发者可以定制开发,自由创造个性化的智能场景。


现场,讯飞的团队也为大家展示了设备互联互通和多模态人机交互的能力。


^ 现场演示厨房场景的设备交互


   发布操作系统 iFLYOS,整合技术和内容,免费提供系统级解决方案


最后一项发布是 iFLYOS,一种智能硬件更轻量的接入方式,一种系统级的语音交互解决方案。


iFLYOS 不仅整合了讯飞语音唤醒、语音识别、语音合成、语义理解这四大基础技术能力并免费开放给开发者,并且,还整合了 1300 万首咪咕高清音乐、20 万部海豚有声内容、以及 3 万部院线大片


为了更好的助力开发者,iFLYOS 还提供了 API 开放接口、开源了端代码、并且兼容亚马逊 AVS 可以让亚马逊设备快速接入讯飞。


^ 讯飞单点 AI 能力秀


   笃信基于视觉呈现的语音交互将成为主流交互方式


胡郁的新品发布后,不仅强调了科大讯飞在技术上的策略投入,还和观众探讨了未来的人机交互方式。


统计表明,90% 信息输出依靠语音,80% 信息输入依靠视觉。基于视觉呈现的语音交互,是否能成为触摸交互之后,最主要的交互方式?胡郁给出的答案是坚定的。未来,将会有更多的带有视觉呈现的语音交互场景,如跑步等移动场景下,人们佩戴耳机的无视觉呈现的语音交互;在车载环境下,对着后视镜的弱视觉呈现的语音交互;还有在家庭环境下,在电视、投影等屏幕前的强视觉呈现的语音交互等等。


   拥抱软硬件开发者的姿态


自去年 1024 开发者节后,讯飞不断的扩大着开发者的受众范围,并细化着他们的画像。讯飞将开发者分为 5 类:能力开发者、方案开发者、产品开发者、技能开发者、内容开发者,并预测今年将突破 100 万讯飞开放平台的注册开发者。


^ 璀璨的发布会现场聚集了 2000 名观众


在会后的采访环节,当深圳湾问起常常出差来深圳的于继栋,如何描绘深圳的开发者时, 他说,深圳是一个充满创新的地方。深圳是北京之外开发者最多的城市,但相比北京的开发者,深圳的开发者的兼容性略显不足。


基于这两年对语音智能生态的观察,我们发现,具有技术能力的软硬件开发者和方案商、终端设备的开发者、以及具有软件开发和内容整合能力的应用开发者,都被或正在被卷入到语音智能这个大生态。而在各大巨头和实力派系都在竞相搭平台「秀肌肉」的时候,开发者的活跃度也超过了以往任何时候。应该以怎样的姿态拥抱开发者,则是这些大平台长远的课题。


主笔:陈壹零/ 深圳湾

图源:科大讯飞

 < 相关阅读 > 


● ● ●


深圳湾(公众号 ID:shenzhenware)连接全球硬件创新者,连接硬件生态链上下游,连接跨界产品的设计、技术、生产、渠道、商业、创新。深圳湾持续关注「AI+硬件」带来的场景和交互创新,以及与平台和应用相连的全产业链升级,欢迎相关团队与我们联系,微信私人客服:小炫(ID:warexx)


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存